Über den Einfluss von Part-of-Speech-Tags auf Parsing-Ergebnisse

نویسندگان

  • Sandra Kübler
  • Wolfgang Maier
چکیده

Lange Zeit konzentrierte sich die Forschung im datengetriebenen statistischen Konstituenzparsing auf die Entwicklung von Parsingmodellen für das Englische, genauer gesagt, für die Penn Treebank (Marcus et al., 1993). Einer der Gründe dafür, warum sich solche Modelle nicht ohne Weiteres auf andere Sprachen generalisieren lassen, ist die eher schwach ausgeprägte Morphologie des Englischen: Probleme, die sich bei Parsen einer morphologisch reichen Sprache wie z.B. Arabisch oder Deutsch stellen, stellen sich für das Englische nicht. Vor allem in den letzten Jahren erfuhr die Forschung zu Parsingproblemen, die sich auf komplexe Morphologie beziehen, ein gesteigertes Interesse (Kübler und Penn, 2008; Seddah et al., 2010, 2011; Apidianaki et al., 2012). In einer Baumbank sind Wörter im allgemeinen Information annotiert, die Auskunft über die Wortart (Part-of-Speech, POS) und morphologischen Eigenschaften eines Wortes gibt. Wo, sofern vorhanden, die Trennlinie zwischen Wortart und morphologischer Information gezogen wird und wie detailliert annotiert wird, hängt von der Einzelsprache und dem Annotationsschema ab. In einigen Baumbanken gibt es keine separate morphologische Annotation (wie z.B. in der Penn Treebank), in anderen sind Part-of-Speechund Morphologie-Tagsets getrennt (z.B. in den deutschen Baumbanken TiGer (Brants et al., 2002) und NeGra (Skut et al., 1997)), und in anderen ist wiederum nur ein Tagset vorhanden, das sowohl POSals auch Morphologie-Information enthält (z.B. in der Szeged Treebank (Csendes et al., 2005)). Die Anzahl verschiedener Tags für Sprachen mit einer komplexen Morphologie kann in die Tausende gehen, so z.B. für Tschechisch (Hajič et al., 2000), während für die Modellierung der Wortarten von Sprachen mit wenig bis keiner Morphologie nur wenige Tags ausreichen, z.B. 33 Tags für die Penn Chinese Treebank (Xia, 2000). Wir schließen der Einfachheit halber alle Annotationstypen ein, wenn wir ab hier von Part-of-Speech-Annotation sprechen. Die Part-of-Speech-Tags nehmen eine Schlüsselrolle beim Parsen ein als Schnittstelle zwischen lexikalischer Ebene und dem eigentlichen Syntax-Baum: Während des Parsingvorgangs wird der eigentliche Konstituenzbaum nicht direkt über den Wörtern, sondern über der Part-of-Speech-Annotation erstellt. Ein Part-of-Speech-Tag kann als eine Äquivalenzklasse von Wörtern mit ähnlichen distributionellen Charakteristika angesehen werden, die über die individuellen Wörter abstrahiert und damit die Anzahl der Parameter beschränkt, für die Wahrscheinlichkeiten gelernt werden müssen. Die eigentlichen Wörter finden bei lexikalisierten Parsern Eingang in das Wahrscheinlichkeitsmodell. Es ist offensichtlich, dass die Part-of-Speech-Annotation direkten Einfluss auf die Qualität des Parsebaums hat. Nicht nur die Qualität des Taggers spielt hierbei eine Rolle, sondern auch die Granularität des Tagsets an sich. Es muss ein Kompromiss

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Phishing still works: Erfahrungen und Lehren aus der Durchführung von Phishing-Experimenten

Wir beschreiben die Durchführung und die Ergebnisse zweier Experimente, bei denen der Einfluss verschiedener Gestaltungsparameter von E-Mails und Webseiten auf den Erfolg von Phishing-Angriffen untersucht wurde. Wir berichten außerdem über unsere Erfahrungen, welche technischen, ethischen und rechtlichen Aspekte beim Design und der Durchführung solcher Experimente beachtet werden müssen.

متن کامل

Der Einfluss von Schwankungen der Übertragungsreichweite auf die Leistungsfähigkeit von Ad-Hoc Netzwerken

Die Leistungsfähigkeit eines drahtlosen, mobilen Ad-Hoc Netzwerkes wird im wesentlichen durch die Fhigkeit der Protokolle bestimmt, auf Änderungen der Netzwerktopologie effektiv zu reagieren. Die für diese Netzwerke charakteristische Eigenschaft der Dynamik in der Netztopologie basiert im wesentlichen auf der Mobilität der Knoten und auf Schwankungen der Funkreichweite. Während der Mobilitätsas...

متن کامل

Markets and Choice Economics of Change Poverty and Transitions in Health

Poverty and Transitions in Health* Using a sample of Europeans aged 50+ from twelve countries in the Survey of Health, Ageing and Retirement in Europe (SHARE) we analyse the role of poor material conditions as a determinant of changes in health over a four-year period. We find that poverty defined with respect to relative incomes has no effect on changes in health. However, broader measures of ...

متن کامل

Der Einfluss des Internets auf individuelles politisches Handeln: Ergebnisse eines sozialwissenschaftlichen Forschungsprojekts

Der Beitrag untersucht den Einfluss der zunehmenden Verbreitung von Internet-Zugängen auf politische Kommunikation und Partizipation. Ausgangspunkt ist die in der Literatur häufig geäußerte Vermutung, das Internet könne – wie dies auch bei anderen Medien z.T. nachgewiesen werden konnte – einen mobilisierenden Effekt haben. Die Ergebnisse zeigen, dass dies insbesondere dort tatsächlich der Fall ...

متن کامل

Einflussgrößen auf die Nutzungsabsicht von Mobile Learning in unterschiedlichen Einsatzszenarien - eine empirische Studie

Mobile Learning (ML) bietet nur bei entsprechender Nutzung durch die Lernenden einen Mehrwert. In mehreren Studien wurden Einflussgrößen auf die Technologieakzeptanz untersucht und diverse Modelle zeigen, dass die wahrgenommene Nützlichkeit zentral für die Nutzungsabsicht ist. Frühere Studien haben jedoch nie zwischen selbstgesteuertem ML und dem Einsatz mobiler Lernanwendungen innerhalb von Pr...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • JLCL

دوره 28  شماره 

صفحات  -

تاریخ انتشار 2013